基于多模态深度学习的酶活性位点定位
加星标,再也不怕错过更新!方法见文末动图。
酶作为生化反应的催化剂,推动着生长、代谢等关键生命过程。其活性由其三维结构中的活性位点决定,使其能够特异性地结合底物并催化化学反应。尽管DNA测序技术的进步带来了大量酶序列,但高质量的活性位点注释数据仍然稀缺,UniProt数据库中仅不到0.7%的酶序列有高质量的活性位点注释。而且现有的工具难以精确预测酶与其底物、反应类型以及不同活性位点之间的关系。
为了突破现有挑战,8月的nature communications上介绍了一种酶活性位点标注算法(EasIFA):通过融合蛋白质语言模型和3D结构编码器,并利用多模态交叉注意力框架对齐蛋白质级信息与酶促反应知识,EasIFA不仅提升了酶活性位点标注的速度和准确性,还具有从粗略标注数据库向高精度数据集的知识转移能力以及作为催化位点监测工具的潜力。
01
酶活性位点预测的问题定义
在酶活性位点识别任务中,作者通过结合酶的结构信息(PDB格式)和化学反应序列信息(SMILES格式),将酶结构转换为图表示GE = (VE, EE, RE),并将反应信息转换为图表示GR = {GS, GP}。目标是通过模型M将联合特征表示空间GE × (GS ∪ GP)映射到二元概率向量P或多类概率矩阵,以预测酶活性位点及其功能角色。
02
EasIFA框架介绍
EasIFA框架(图1)通过两个分支分别表示酶和反应的特征,使用ESM-2和GearNet更新酶图节点特征,并通过BridgeNet映射到相同特征大小。反应特征通过MPNN更新后,利用注意力机制合并底物和产物信息。酶-反应交互网络进一步整合信息,最终通过多层感知器残基活性预测器预测氨基酸残基的活性类型,完成活性位点识别和类型分配任务。
图1 | EasIFA模型的架构图
03
模型性能评估策略和指标
作者构建了SwissProt E-RXN CSA和MCSA E-RXN CSA数据集,用于酶-反应活性位点注释和知识库转移实验。在算法性能评估中,使用精确度、召回率、FPR、F1分数和MCC评估活性位点定位注释任务,报告每个活性类别的召回率和平均MCC。并将EasIFA-ESM和EasIFA-SaProt算法与BLASTp、AEGAN和Schrodinger-SiteMap方法进行比较。
图2 | SwissProt E-RXN ASA测试集中的性能指标
04
消融研究
在消融实验中,作者评估了不同因素对酶活性位点注释的影响,表3结果显示包含反应分支信息显著增强EasIFA模型的预测性能,而仅基于有限酶反应集的反应信息表示可能导致注释质量下降。EasIFA-RXNFP-bin变体性能接近EasIFA-E-bin,表明基于原子间距离感知的预训练图网络表示更适合此任务。缺少GearNet的EasIFA-NG-bin模型性能下降,但推理速度更快。EasIFA-SaProt-bin变体召回率提高,表明3D结构化表示对EasIFA影响不大。使用ESMFold2推断的结构进行预测仅导致性能略有下降,显示EasIFA对结构数据分布变化的鲁棒性。
表3 | 消融研究:EasIFA与其某些模块移除的修改版本在SwissProt E-RXN ASA测试集上的性能比较
如图3所示,在不同序列身份水平的测试样本中,EasIFA-ESM-bin和EasIFA-E-bin的AUPRC差距随序列身份增加而扩大,表明酶-反应交互网络在评估更多相似信息时更有效。
图3 | 酶促反应信息作用的消融研究
案例:蛋白酪氨酸磷酸酶和甲基转移酶活性位点的精准定位
在Swiss-Prot E-RXN ASA测试集上,EasIFA准确注释了蛋白酪氨酸磷酸酶和肌肽N-甲基转移酶的活性位点(图4),并在具有TIM桶结构的酶中表现出显著精确性。
图4 | 案例研究
05
知识库转移实验
在MCSA E-RXN CSA数据集上,如表4所示,与EasIFA-ESM-bin相比,EasIFA-SaProt-bin通过迁移学习显著提高预测性能,表现更佳。相比之下,BLASTp方法在MCSA数据集上的表现较差。
EasIFA算法在大量但粗略的酶活性位点注释数据集上训练,成功将其知识转移到高质量的小规模数据集,显示了其在数据空间之间转移知识的能力。
表4 | EasIFA-ESM-bin、EasIFA-SaProt-bin与基于序列相似性的算法BLASTp在MCSA E-RXN CSA数据集上的性能比较
06
人工设计酶的催化位点的准确定位
在酶设计中,EasIFA算法通过数据增强策略成功识别了人工设计支架酶的催化位点(图5),显著优于BLASTp和AEGAN,后者因人工酶与天然酶的显著差异而难以准确预测活性位点。
图5 | 由RFdiffusion人工设计的酶与天然酶的差异分析
07
可解释信息交互网络的注意力权重可视化
在酶-反应信息交互网络中引入注意力机制提高了EasIFA模型的可解释性,通过可视化酶活性残基位点在底物原子上的注意力权重,识别了关键酶-反应交互(图6)。
图6 | 支架活性位点酶设计的活性监测和可解释案例研究
08
EasIFA网络服务器
作者开发了EasIFA网络服务器(http://easifa.iddd.group),提供自动化工作流程从UniProt检索酶结构和催化反应方程,并使用EasIFA自动注释活性位点。
09
讨论
EasIFA算法通过结合蛋白质语言模型、图注意力网络和注意力机制的跨模态交互网络,显著优于现有酶活性位点注释方法,提供快速注释和知识库转移能力。EasIFA在高质量数据库上训练的模型可扩展酶反应催化机制数据库,并在酶设计任务中作为催化位点监测工具,提供了可解释性。整体来看,EasIFA 有望替代现有的标准注释工具,稳健处理大规模任务,推动药物设计、疾病研究和酶工程的发展。
原文链接
https://www.nature.com/articles/s41467-024-51511-6
供稿 | 徐艺然
责编 | 囡囡
设计 / 排版 | 可洲
微信号:FRCBS-THU
因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群
精彩回顾
精彩回顾
特别提示
微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!
方法超简单,只需3秒钟!
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟